Mô hình dự đoán là gì? Các công bố khoa học về Mô hình dự đoán
Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là m...
Mô hình dự đoán là một công cụ hoặc phương pháp được sử dụng để dự đoán kết quả dựa trên dữ liệu đã cho. Đối với các vấn đề dự đoán, mô hình dự đoán có thể là một thuật toán máy học hoặc một công cụ phân tích dữ liệu khác. Mô hình dự đoán sẽ được đào tạo trên dữ liệu có sẵn, học các mẫu và quy tắc từ dữ liệu đó và sau đó được sử dụng để dự đoán kết quả trên dữ liệu mới. Mỗi mô hình dự đoán có những đặc điểm riêng, và sẽ được chọn dựa trên kiểu dữ liệu, mục tiêu dự đoán và các yêu cầu khác của vấn đề cụ thể.
Mô hình dự đoán là một biểu đồ hoặc công thức mô tả mối quan hệ giữa các biến đầu vào và biến đầu ra trong một hệ thống. Nó được xây dựng dựa trên các quy tắc và mẫu được học từ dữ liệu đào tạo. Mục tiêu của mô hình dự đoán là sử dụng mô hình đã học để dự đoán trạng thái, hành vi hoặc kết quả của các biến đầu ra mới khi chỉ có thông tin về biến đầu vào.
Các mô hình dự đoán có thể thuộc vào nhóm mô hình hồi quy, phân loại hoặc gom cụm, tùy thuộc vào loại dữ liệu đầu vào và loại dự đoán cụ thể. Một số mô hình dự đoán phổ biến bao gồm:
1. Mô hình hồi quy: Dùng để dự đoán giá trị liên tục của biến đầu ra. Ví dụ, mô hình hồi quy tuyến tính sử dụng công thức đươc biểu diễn dưới dạng `y = mx + c`, trong đó `y` là biến đầu ra dự đoán, `x` là biến đầu vào và `m`, `c` là các hệ số dự đoán.
2. Mô hình phân loại: Dùng để phân loại dữ liệu vào các nhóm, ví dụ như phân loại email vào hộp thư rác hay thư thường. Các mô hình phân loại phổ biến bao gồm cây quyết định, máy vector hỗ trợ (SVM) và học sâu.
3. Mô hình gom cụm: Dùng để phân loại dữ liệu thành các nhóm tương tự nhau dựa trên các đặc trưng công việc của chúng. Các mô hình gom cụm phổ biến bao gồm K-Means, K-Medoids và DBSCAN.
Để xây dựng một mô hình dự đoán, phương pháp đào tạo được sử dụng để tìm các quy tắc và mẫu từ dữ liệu huấn luyện. Dữ liệu huấn luyện thường được chia thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra để đánh giá hiệu suất mô hình. Mô hình dự đoán được đào tạo bằng cách tối ưu hóa hàm mất mát, tối thiểu hóa sai số giữa đầu ra dự đoán và giá trị thực tế của dữ liệu.
Danh sách công bố khoa học về chủ đề "mô hình dự đoán":
Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.
Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(
Một mô hình phân tích đơn giản được đề xuất để dự đoán các đường cong độ dẫn nước chưa bão hòa bằng cách sử dụng đường cong độ ẩm - đầu mao dẫn và giá trị đo được của độ dẫn nước ở trạng thái bão hòa. Mô hình này tương tự như mô hình của Childs và Collis-George (1950) nhưng sử dụng một giả định được điều chỉnh liên quan đến độ dẫn nước của chuỗi lỗ để tính đến tác động của phần lỗ lớn hơn. Một phương pháp tính toán được phát triển để xác định độ ẩm còn lại và để ngoại suy đường cong độ ẩm - đầu mao dẫn như đã đo trong một khoảng hạn chế. Mô hình được đề xuất được so sánh với các mô hình thực tiễn hiện có của Averjanov (1950), Wyllie và Gardner (1958), cũng như Millington và Quirk (1961) dựa trên dữ liệu đo được của 45 loại đất khác nhau. Dường như mô hình mới có sự phù hợp tốt hơn với các quan sát.
Sử dụng phương pháp khả năng Bayesian, chúng tôi ước lượng một mô hình cân bằng tổng quát ngẫu nhiên động cho nền kinh tế Hoa Kỳ bằng cách sử dụng bảy chuỗi thời gian vĩ mô. Mô hình này tích hợp nhiều loại ma sát thực và danh nghĩa cùng với bảy loại sốc cấu trúc. Chúng tôi chỉ ra rằng mô hình này có khả năng cạnh tranh với các mô hình Tự hồi quy Vector Bayesian trong việc dự đoán ngoài mẫu. Chúng tôi điều tra tầm quan trọng thực nghiệm tương đối của các ma sát khác nhau. Cuối cùng, sử dụng mô hình đã ước lượng, chúng tôi giải quyết một số vấn đề then chốt trong phân tích chu kỳ kinh doanh: Nguồn gốc của các biến động chu kỳ kinh doanh là gì? Mô hình có thể giải thích sự tương quan giữa sản lượng và lạm phát không? Tác động của năng suất đến số giờ làm việc là gì? Nguồn gốc của "Sự điều chỉnh lớn" là gì? (JEL D58, E23, E31, E32)
Bài báo này mô tả một phương pháp hiệu chuẩn và ước lượng không chắc chắn cho các mô hình phân phối dựa trên các biện pháp khả năng tổng quát. Quy trình GLUE hoạt động với nhiều bộ giá trị tham số và cho phép rằng, trong các giới hạn của một cấu trúc mô hình nhất định và các lỗi trong điều kiện biên và quan sát thực địa, các bộ giá trị khác nhau có thể có khả năng tương đương nhau như các mô phỏng của một lưu vực. Các quy trình đưa các loại quan sát khác nhau vào hiệu chuẩn; cập nhật Bayes về các giá trị khả năng và đánh giá giá trị của các quan sát bổ sung vào quy trình hiệu chuẩn được mô tả. Quy trình này đòi hỏi tính toán nặng nhưng đã được triển khai trên một máy tính xử lý song song tại chỗ. Phương pháp này được minh họa bằng một ứng dụng của Mô hình Phân phối Viện Thủy văn đối với dữ liệu từ lưu vực thử nghiệm Gwy ở Plynlimon, miền Trung xứ Wales.
Nâng cao các tiêu chuẩn hiện tại cho dự đoán và phân tích lợi ích hóa trị ung thư vú bằng cách phát triển một mô hình nguy cơ bao gồm các phân nhóm nội tại dựa trên biểu hiện gen: luminal A, luminal B, HER2-enriched, và basal-like.
Một bộ dự đoán phân nhóm gồm 50 gen đã được phát triển sử dụng dữ liệu từ microarray và phản ứng chuỗi polymerase đảo ngược định lượng từ 189 mẫu nguyên mẫu. Các bộ thí nghiệm từ 761 bệnh nhân (không điều trị hệ thống) đã được đánh giá cho xét nghiệm dự đoán, và 133 bệnh nhân đã được đánh giá cho việc dự đoán phản ứng hoàn toàn bệnh lý (pCR) với phác đồ taxane và anthracycline.
Các phân nhóm nội tại như những thực thể khác biệt đã cho thấy ý nghĩa dự đoán (P = 2.26E-12) và vẫn giữ được ý nghĩa trong các phân tích đa biến kết hợp các thông số tiêu chuẩn (trạng thái thụ thể estrogen, điểm histologic, kích thước khối u và trạng thái hạch). Một mô hình dự đoán cho ung thư vú không có hạch đã được xây dựng dựa trên phân nhóm nội tại và thông tin lâm sàng. Đánh giá chỉ số C cho mô hình kết hợp (phân nhóm và kích thước khối u) đã cải thiện đáng kể so với mô hình clinicopatholic hoặc mô hình phân nhóm đơn lẻ. Mô hình phân nhóm nội tại đã dự đoán hiệu quả hóa trị tiền phẫu với giá trị dự đoán tiêu cực cho pCR là 97%.
Chẩn đoán theo phân nhóm nội tại bổ sung thông tin dự đoán và dự đoán đáng kể cho các thông số tiêu chuẩn đối với bệnh nhân mắc ung thư vú. Các thuộc tính dự đoán của điểm nguy cơ liên tục sẽ có giá trị cho việc quản lý các khối u vú không có hạch. Các phân nhóm và điểm nguy cơ cũng có thể được sử dụng để đánh giá khả năng hiệu quả từ hóa trị tiền phẫu.
Các ước tính trước đây về tương tác giữa đất và khí quyển (tác động của độ ẩm trong đất đối với lượng mưa) đã bị hạn chế bởi sự thiếu hụt dữ liệu quan sát cũng như sự phụ thuộc vào mô hình trong các ước tính tính toán. Để khắc phục hạn chế thứ hai này, một tá nhóm nghiên cứu khí hậu gần đây đã thực hiện cùng một thí nghiệm số học được kiểm soát chặt chẽ như một phần của một dự án so sánh hợp tác. Điều này cho phép ước lượng đa mô hình về các khu vực trên Trái đất nơi mà lượng mưa bị ảnh hưởng bởi các bất thường về độ ẩm trong đất trong mùa hè ở Bắc bán cầu. Những lợi ích tiềm năng của ước lượng này có thể bao gồm việc cải thiện dự đoán lượng mưa theo mùa.
Một mô hình được trình bày để tính toán tỷ lệ bay hơi hàng ngày từ bề mặt cây trồng. Mô hình này áp dụng cho tình trạng tán cây của cây hàng trong đó nguồn cung nước từ đất cho rễ cây không bị hạn chế và cây trồng chưa ở giai đoạn trưởng thành hoặc thoái hóa cao. Tỷ lệ bay hơi từ cây trồng được tính bằng cách cộng tổng các thành phần từ bề mặt đất và bề mặt cây (mỗi thành phần trong số này yêu cầu dữ liệu hàng ngày cho chỉ số diện tích lá), bay hơi tiềm năng, lượng mưa và bức xạ ròng trên tán cây. Quá trình bay hơi từ bề mặt đất
Phương pháp tối thiểu bậc (PLS) đã được giới thiệu như một phương pháp "nguyên nhân-dự đoán" trong mô hình phương trình cấu trúc (SEM), nhằm vượt qua sự phân chia rõ rệt giữa giải thích và dự đoán. Tuy nhiên, trong khi các nhà nghiên cứu sử dụng PLS-SEM thường nhấn mạnh tính chất dự đoán của phân tích, việc đánh giá mô hình lại phụ thuộc hoàn toàn vào các chỉ số được thiết kế để đánh giá sức mạnh giải thích của mô hình đường dẫn. Nghiên cứu gần đây đã đề xuất PLSpredict, một quy trình dựa trên mẫu giữu lại tạo ra các dự đoán ở mức trường hợp về một yếu tố hoặc một khái niệm. Bài báo này cung cấp hướng dẫn để áp dụng PLSpredict và giải thích các lựa chọn chính mà các nhà nghiên cứu cần thực hiện khi sử dụng quy trình này.
Các tác giả thảo luận về sự cần thiết của các đánh giá mô hình hướng đến dự đoán trong PLS-SEM và giải thích khái niệm cũng như tiến bộ thêm phương pháp PLSpredict. Ngoài ra, họ minh họa việc sử dụng quy trình PLSpredict với một mô hình tiếp thị du lịch và đưa ra những khuyến nghị về cách kết quả nên được diễn giải. Trong khi trọng tâm của bài báo là quy trình PLSpredict, mục tiêu chung là khuyến khích đánh giá thường xuyên theo định hướng dự đoán trong các phân tích PLS-SEM.
Bài báo thúc đẩy PLSpredict và cung cấp hướng dẫn về cách sử dụng phương pháp đánh giá mô hình theo định hướng dự đoán này. Các nhà nghiên cứu nên thường xuyên xem xét việc đánh giá sức mạnh dự đoán của các mô hình đường dẫn PLS của họ. PLSpredict là một cách tiếp cận hữu ích và đơn giản để đánh giá khả năng dự đoán ngoài mẫu của các mô hình đường dẫn PLS mà các nhà nghiên cứu có thể áp dụng trong các nghiên cứu của họ.
Nghiên cứu trong tương lai cần tìm cách mở rộng khả năng của PLSpredict, ví dụ như phát triển thêm các tiêu chuẩn so sánh kết quả PLS-SEM và so sánh thực nghiệm giữa các phương pháp nguyên nhân sớm nhất và phương pháp nguyên nhân trực tiếp trong việc đánh giá sức mạnh dự đoán.
Bài báo này cung cấp hướng dẫn rõ ràng cho việc sử dụng PLSpredict, mà các nhà nghiên cứu và thực hành nên thường xuyên áp dụng như một phần của các phân tích PLS-SEM của họ.
Nghiên cứu này củng cố việc sử dụng PLSpredict. Nó cung cấp cho các nhà nghiên cứu tiếp thị và thực hành kiến thức cần thiết để đánh giá, báo cáo và giải thích chính xác các kết quả PLS-SEM. Nhờ đó, nghiên cứu này góp phần bảo vệ tính nghiêm ngặt của các nghiên cứu tiếp thị sử dụng PLS-SEM.
Một phiên bản mở rộng của lý thuyết hành vi dự đoán (TPB) đã được sử dụng để dự đoán và giải thích việc sử dụng giao thông công cộng. Một thiết kế trước-sau đã được sử dụng để kiểm tra sự thay đổi trong việc sử dụng xe buýt của sinh viên đại học sau khi triển khai chương trình vé xe buýt phổ quát (U-pass). Việc sử dụng xe buýt đã tăng lên rõ rệt sau khi U-pass được triển khai, và những thay đổi liên quan về thái độ và niềm tin đối với các phương thức giao thông đã được phát hiện. Trong cả hai giai đoạn, việc sử dụng giao thông công cộng của sinh viên được dự đoán khá chính xác bởi TPB gốc. Tuy nhiên, 2 cấu trúc bổ sung—một chuẩn mô tả và sự tương tác giữa ý định và kiểm soát hành vi cảm nhận—đã cải thiện đáng kể dự đoán trong cả hai giai đoạn của nghiên cứu. Những cấu trúc này có thể là những bổ sung hữu ích cho TPB gốc, ít nhất là trong lĩnh vực hành vi này.
- 1
- 2
- 3
- 4
- 5
- 6
- 10